# -*- coding: utf-8 -*-
"""
@Time    : 2025/2/26 18:54 
@Author  : ZhangShenao 
@File    : 4.词干提取.py 
@Desc    : 词干提取

词干提取是去除单词的词缀(如前缀和后缀),以便找到单词的“词干”或“根形式”
这个过程是启发式的,可能不会返回一个真实的单词,而是返回单词的一个截断形式
词干提取可以减少词形变化的影响,使相关的单词能够在分析时被归纳为相同的形式
有助于简化文本数据，并提高文本处理任务的性能。
"""

import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

# 确保已下载NLTK的tokenizers和corpora
nltk.download('punkt')
# 初始化词干提取器
stemmer = PorterStemmer()
# 示例文本
text = "The leaves on the trees are falling quickly in the autumn season."
# 分词
tokens = word_tokenize(text)
# 词干提取
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print("原始文本:")
print(tokens)
print("\n词干提取后:")
print(stemmed_tokens)
